Hemberg-lab单细胞转录组数据分析(一)
在别人的电子书,你的电子书,都在bookdown一文中推荐过这一篇教程(https://hemberg-lab.github.io/scRNA.seq.course),从2016年一直更新到2018年,是入门单细胞分析的十分适合的文档。为了进一步促进学习,生信宝典申请并组织翻译这篇教程,将在公众号陆续推出。最后会有整合版以网页和PDF格式发布于易生信平台。
关于课程
采用高通量测序技术获取单细胞水平的全转录组数据又称scRNA-seq
已应用越来越广泛。scRNA-seq
的优势是其同时具有单细胞水平的分辨率和基因组范围的检测能力,可以解决其他方法如bulk RNA-seq
或单细胞RT-qPCR
解决不了的问题。然而,分析单细胞数据需要新的方法,以前用于bulk RNA-seq
的一些计算方法的理论假设也不再适用。
在这个课程,我们讨论scRNA-seq
可以解决的问题,以及可用的计算和统计学方法。原版课程是剑桥大学生物信息培训中心授课所用, 但文字版教材适用于任何对scRNA-seq
分析感兴趣的人。课程每年两次,材料在开课前更新。
计算工具的数量增加很快,我们尽力更新至最新技术。这个课程的一个主要限制是我们倾向于使用在R
里面实现并且速度相对快的工具 (其他语言实现的工具也通用,关键是理解原理)。另外,我们倾向于使用自己或朋友、同事开发的工具。(译者注:无可厚非,一是更了解,二是更容易获取帮助。我们也更倾向于使用自己的绘图工具ImageGP。)
视频
视频课录制于2017年11月,那时课程章节更少一些。视频在Youtube上,https://www.youtube.com/embed/56n77bpjiKo?list=PLEyKDyF1qdOYAhwU71qlrOXYsYHtyIu8n。
GitHub
https://github.com/hemberg-lab/scRNA.seq.course
Docker 镜像 (RStudio)
课程可以通过安装了所有依赖包的RStudio
的Docker镜像重现。
确保你的电脑已安装了Docker
,如果没有,请参照Docker基础。运行下面命令启动Docker镜像:
docker run -d -p 8787:8787 quay.io/hemberg-group/scrna-seq-course-rstudio
这条命令会下载docker
镜像 (看网速快慢,需要一些时间)。下载完成后,会启动Rstudio服务器版 (里面包含了依赖的程序包和数据)。
接下来就可以在基因组浏览器访问localhost:8787
,使用用户名和密码rstudio:rstudio
登录网页版Rstudio (R语言学习 - 入门环境Rstudio)。
更多关于运行RStudio docker镜像的选项见https://hub.docker.com/r/rocker/rstudio-stable/.
译者注:如果您参加过我们的易生信课程,这些操作都应该比较熟悉了。需要注意的是:1. 确认8787
端口有无被占用,尤其是自己在服务器运行过Rstudio server
时。2. 如果服务器有外网IP
,可以在任何电脑的浏览器输入IP:8787
访问。
译者注:如果不习惯Docker,或没有管理员权限,自己在Windows下安装依赖包也不费事。
手动安装
如果不使用Docker镜像,需要克隆或下载course GitHub repository并且在下载后的文件夹中启动R session
。并且需要安装课程的docker文件: Dockerfile1 和 Dockerfile2中列出的所有包.
许可
所有课程材料遵循 GPL-3协议. 任何人都可以阅读这份材料来学习scRNA-seq
数据分析. 如果应用于教学,除了提供合适的引用外,还请联系我们 (英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。
课程基础
课程适用于有Linux/Unix
和R
基础的朋友 (蓝字可点击)。
另外,我们也假设您对常规转录组的比对和分析,以及常用的计算工具比较熟悉 (39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版))。
否则,我们推荐先参加Introduction to RNA-seq and ChIP-seq data analysis 或 Analysis of high-throughput sequencing data with Bioconductor,然后再参加这个课程。
译者注:生物信息程序基础和常规转录组分析的中文版视频课程见:易生信原创课程 (如果是微信公众号,后台回复 培训获取)。
联系我们
如果您有任何 评论, 问题 或 建议 请跟我们联系。(英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。
单细胞RNA-seq简介
混合RNA-seq
2000年末的重大技术突破,取代微阵列表达芯片被广泛使用
通过混合大量细胞获取足够RNA用于建库测序,来定量每个基因的平均表达水平
用于比较转录组,例如比较不同物种的同一组织样本
量化整体表达特征,如疾病研究中的表达模式
研究异质系统方面还有力所不及之处,例如对早期发育的研究,复杂组织(大脑)的研究
在基因表达随机性研究方面心有余而力不足
scRNA-seq
是一项由汤富酬等人在2009年首次发表的新技术。文章发表于
Nature Method
,测序了7个单细胞,两个卵裂球,两个野生型卵子,两个Dicer
敲除的卵 子,一个Ago2敲除的卵子。这项技术在2013年被Nature评为年度技术,更简便的操作流程和较低的测序成本促成单细胞技术的广泛流行。2018年底,单细胞技术应用于胚胎发育追踪评为Science年度突破。
检测每个基因在大量细胞中的表达水平分布。
可以研究细胞类型特异性转录调控的新型生物问题,例如细胞类型鉴定,细胞应答的异质性,细胞表达的随机性,细胞间基因调控网络的推断等
研究中细胞数目范围从100个变到10^6个且每年递增。
目前有许多不同的单细胞Protocol,例如
SMART-seq2
,CELL-seq
和Drop-seq
。还有商业平台,包括 Fluidigm C1, Wafergen ICELL8和the 10X Genomics Chromium。
Bulk RNA-seq技术中一些计算分析方法可应用于单细胞分析。
多数情况下单细胞计算分析需要调整现有方法或者开发新方法
工作流程
scRNA-seq
的实验方案和bulk RNA-seq
的相似。我们将在下一节一起讨论一些最通用的方法。
计算分析
本课程内容是scRNA-seq
实验中得到的数据进行计算分析。总体流程如下图所示,前面三步(黄色)对于任何高通量测序数据是通用的,紧随其后的四步(橙色)是要将传统RNA-Seq
分析中已有的方法和新开发的方法结合起来解决scRNA-seq
的技术差异问题,最后的部分(蓝色)是使用专门为scRNA-seq
开发的方法来进行生物分析解读。
目前还有其他平台可以执行上述流程图中的一步或多步操作:
Falco:是一个单细胞RNA-seq的云处理平台,更像是一个流程部署和管理工具,一年多未更新了,一般也用不上。能部署的应该都有自己 的一套部署工具,初学者不需要学这么复杂的。有精力,可以学习下其部署理念应用于自己的流程。
SCONE(Single-Cell Overview of Normalized Expression):单细胞RNA-seq质量控制和标准化的R包 (一年多没更新了, Yosef研究 组2018年在Nature method发表一个单细胞分型的深度学习平台,
scVI
,效果不错,值得尝试)
Seurat :单细胞质控,分析和数据探索而设计的R包,可以完成获得定量数据后的几乎所有分析。不少文章的几个主图都是来自这个软件包 。这个软件包可以作为学习的入门,官网的教程示例写的很详细。
ASAP(Automated Single-cell Analysis Pipeline) :是一款单细胞分析的交互式网络平台。从基因表达矩阵开始到后期分析。功能相对比较全,定制化弱一些。学完这份教程,里面的功能都可以自己实现。
挑战
Bulk RNA-seq和scRNA-seq的主要差别是每个测序文库代表一个单细胞还是一群细胞。比较不同细胞(不同测序文库)的结果需要格外注意。文库之间差异的主要来源是:
扩增效率和扩增偏好性(部分文库可扩增多达100万倍)
基因 ‘dropouts’: 基因在一个细胞中呈现中等表达水平,但在另一个细胞中未检测到表达,这可能来源于
scRNA-seq
中RNA总量低导致的扩增建库丢失或RNA表达的随机性。
取自于单独一个细胞的低转录本总量是这两个文库差异的一个主要原因。提高转录本捕获效率和降低扩增偏好可以降低差异,是目前活跃的研究方向。从后续课程学习中也可以看 到,合适的标准化和校正方法也可以抵消一部分文库构建引入的噪音。
转录组研究
更多阅读
后台回复“生信宝典福利第一波”获取教程合集